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摘要 : [目的 /意义 ] 现 有 的 关键 词 提取 方法 不 适应 社会 化 问答 社区 文本 长 度 较 短 、 内 容 表 述 口语 化 .数据 
集 稀 芯 的 特点 , 且 很 少 考虑 用 户 关注 程度 对 词语 重要 性 的 影响 ,不 能 有 效 地 提取 此 类 文本 的 关键 词 , 因 此 ,提出 
针对 社会 化 问答 社区 的 多 属性 加 权 关 键 词 提取 方法 。[ 方 法 过程] 多 属性 加 权 关 键 词 提取 方法 通过 引入 调节 
函数 和 词性 对 传统 TF-IDF 进行 改进 ,并 通过 线性 加 权 融 合用 户 回答 数 、 关 注 数 浏览 数 以 及 评论 数 4 个 用 户 关 
注 属 性 来 综合 度量 词语 权重 。[ 结果 /结论 ] 实验 表明 ,该 方法 能 更 有 效 地 提取 社会 化 问答 社区 文本 的 关键 词 。 
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随 着 信息 技术 的 发 展 和 互联 网 的 全 面 普及 ,以 知 
卑 XQuora 等 为 代表 的 社会 化 问答 社区 成 为 人 们 信息 交 
流 种 知识 共享 的 重要 渠道 "] 。 社 会 化 问答 社区 是 传统 
闻 普 网 站 和 虚拟 社区 结合 的 产物 ,支持 用 户 围绕 共同 
兴趣 和 目标 自我 生成 内 容 , 用 户 既 是 信息 资源 的 受益 
者 ,又 是 信息 资源 的 建设 者 ""。 社 会 化 问答 社区 中 的 
文本 充分 反映 了 用 户 的 知识 面 .兴趣 爱好 等 信息 ,对 网 
络 蛤 情 分 析 .用 户 兴趣 挖掘 .社区 知识 发 现 等 自然 语言 
处 者 相 关 研究 有 重要 价值 。 关 键 词 提取 是 自然 语言 处 
理 的 基础 和 核心 之 一 ,对 自然 语言 处 理 技术 的 应 用 效 
果 寡 重要 影响 。 

目前 ,主流 的 关键 词 提取 方法 有 三 类 :基于 机 器 学 
习 的 方法 "基于 语义 的 方法 中 以 及 基于 统计 的 方 
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玻 呈 , 且 文 本 更 新 速度 快 ” ,很 难 建立 标准 的 语料库 和 
背景 知识 库 。 因 此 ,这 两 种 方法 不 适用 于 社会 化 问答 
社区 文本 的 关键 词 提 取 。 

基于 统计 的 方法 通过 统计 文本 特征 来 提取 关键 
词 " ,其 中 应 用 最 多 的 是 TF -IDF ( Term Frequency -in- 
verse document frequency ) 方法 。 该 方法 简单 通用 ,对 
文本 长 度 和 语言 规范 限制 较 少 ,但 准确 性 不 高 "|。 
针对 这 个 问题 ,学 者 们 进行 了 大 量 探索 。 研 究 成 果 显 
示 , 在 词 频 分 析 的 基础 上 融入 词性 ” .词语 关联 
”词语 位 置 “” \ 词 跨度 "等 属性 ,能 有 效 避 人 免 
传统 关键 词 提取 方法 产生 的 误差 。 此 外 ,在 基于 虚拟 
社区 的 研究 中 ,有 学 者 发 现 ,用 户 是 信息 的 生产 者 、 传 
播 者 和 使 用 者 ,用 户 浏览 .回复 等 数据 记录 体现 了 用 户 
对 该 内 容 的 关注 程度 ,衡量 词语 重要 性 的 时 候 应 将 这 
些 属性 纳入 考虑 范围 。 目前 ,引入 属性 提高 关键 
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法 “ 。 基 于 机 器 学 习 的 方法 通过 训练 机 器 学 习 模 型 自 
动 提取 关键 词 ,是 建立 在 大 量 的 语料库 基础 上 的 ,需要 
大 量 的 参数 训练 来 保证 结果 的 准确 性 ;基于 语义 的 方 
法 通过 构建 词语 间 的 语义 关系 网 络 来 分 析 和 提取 关键 
词 ”, 由 于 缺少 语义 定义 标准 ,该 方法 易 受 主观 性 影 
响 , 且 对 背景 知识 库 .词典 和 词 表 依赖 较 高 ,对 文本 格 
式 有 严格 要 求 。 由 于 用 户 生成 内 容 的 自由 性 ,社会 化 
问答 社区 的 文本 长 度 较 短 内容 表述 口语 化 数据 集 稀 


司 提取 效率 的 研究 取得 了 一 定 成 果 , 但 现 有 方法 很 少 
考虑 其 对 社会 化 问答 社区 文本 的 适用 性 ,不 能 有 效应 
日 于 该 文本 集 的 处 理 。 一 方面 , 现 有 方法 从 中 文 文本 
或 网 页 文本 出 发 ,不 一 定 适用 社会 化 问答 社区 文本 长 
度 较 短 .表述 口语 化 .数据 集 稀 玻 的 特点 ; 吃 一 方面 ,与 
其 他 来 源 的 数据 集 相 比 ,社会 化 问答 社区 文本 的 结构 
不 同 ,用 户 关 注 度 体现 的 形式 不 同 ,衡量 词语 重要 性 的 
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具体 属性 存在 区 别 。 因 此 ,如 何 综合 度量 社会 化 问答 
社区 文本 的 属性 ,提出 适用 于 社会 化 问答 社区 实际 的 
关键 词 提取 方法 是 尚 待 研究 的 重要 问题 。 


2 相关 关键 词 提取 方法 


2.1 基于 词 频 的 关键 词 提取 方法 

TF-IDF ”是 词 频 权重 计算 使 用 最 多 的 方法 。 
TF 表示 词语 出 现 的 次 数 ,IDF 表示 含有 某 词语 的 文本 
占 文本 集 的 比例 。 给 定 文本 集 P= |(p,)1j=1,2,…， 
NN| , 记 文 本 集中 所 有 词语 构成 的 集合 为 了 = | (1,) 1i= 
1,2,3,…| ,词语 4 的 权重 计算 公式 为 : 


, N 
Ws; = tfy x idf; =thy x log — (1) 


二 其 中 ,n 表示 文本 集 P 中 含有 词语 i 的 文本 个 数 ， 
护 囊 示 词 语 志 在 文本 户 中 出 现 的 次 数 。 
入 _TF-IDF 依据 的 原理 为 :词语 出 现 的 次 数 越 多 越 重 


要 ;# 当 一 个 词语 在 某 一 个 文本 中 多 次 出 现 , 而 在 其 他 文 


合 关键 词 权重 计算 方法 ,该 方法 对 名 词 .动词 .时 间 词 、 
方位 词 ,形容词 .副词 赋予 不 同 的 权重 ; 蒋 昌 金 等 构 
建 了 词 频 、 词 性 、 词 的 位 置 \ 词 长 等 因素 的 加 权 计 算 公 
式 用 于 提高 能 够 表达 主题 的 词语 的 权重 ,其 中 名 词 和 
名 词 词组 被 赋予 较 高 的 权重 ;李湘 东 等 结合 词性 、 
位 置 属 性 对 词语 权重 进行 修正 并 应 用 到 LDA 生成 模 
型 中 ,用 于 抽取 文本 的 粗 粒 度 特征 ;路 永和 等 提出 
受 词性 影响 的 特征 权重 计算 方法 ; 周 鹏 在 微 博 与 情 
研究 中 提出 增加 中 心 度 、 词 性 、 词 位 置 属性 的 关键 词 抽 
取 方 法 |。 
2.3 引入 用 户 关 注 属性 的 关键 词 提取 方法 

虚拟 社区 中 ,用 户 的 浏览 .评论 等 行为 是 自由 的 ， 
用 户 的 这 些 行 为 以 浏览 数 .评论 数 等 数据 的 形式 被 记 
录 。 用 户 的 兴趣 和 关注 点 不 同 , 导 致 不 同文 本 的 用 户 
行为 数据 有 较 大 差别 。 因 此 ,与 来 自 文献 的 文本 不 同 ， 
虚拟 社区 中 的 文本 除了 有 具有 词 频 ,词性 等 词语 本 身 的 
属性 之 外 ,还 有 用 户 浏览 数 . 回 复数 等 用 户 关注 属性 。 
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如 很 少 出 现 ,说 明 这 个 词 能 很 好 地 区 别 该 文档 ,在 文 
杰 噶 的 重要 性 越 高 。 虽 然 这 种 方法 简单 有 效 ,但 是 不 


能 春 各 种 场合 取得 好 的 应 用 结果 " 。 因 此 ,很 多 学 


目前 ,有 学 者 提出 虚拟 社区 中 词语 的 重要 性 不 仅仅 取 
决 于 词语 出 现 的 频率 ,还 取决 于 其 受用 户 关注 的 程度 。 


着 总 合 具体 情况 深入 分 析 后 ,对 TF-IDF 进行 了 改进 。 
归 东 等 提出 结合 同 频 词 数 统计 规律 的 改进 TF-IDF 关 
链 掩 取 方 法 5 ; 张 建 娥 等 将 TF -IDF 和 词语 关联 度 结 
合 5 玫 于 中 文 文本 关键 词 提 取 '…” ; 张 瑾 等 引入 词 位 置 
利 词 跨度 对 TF-IDF 方法 进行 改进 ,用 于 情报 关键 词 提 
取 b9 ; 罗 繁 明 等 在 情报 关键 词 提取 中 构建 了 综合 词 偏 
度 - 语 位 置 权重 和 TF -IDF 的 关键 词 重要 性 评 售 匡 
闪光 ; 钱 爱 兵 等 在 新 闻 网 页 关键 词 提取 中 ,将 TF-IDF 
和 词 长 ,位置 等 因素 进行 加 权 , 得 到 词语 的 综合 排 
序 " ; 张 保 富 考虑 到 词语 在 类 间 和 类 内 的 分 布 情况 ， 
采用 特征 项 在 类 间 和 类 内 信息 分 布 炉 来 调整 TF -IDF 
的 权重 计算 1。 
2.2 ”引入 词性 属性 的 关键 词 提取 方法 

一 般 地 ,动词 .名 词 ,形容词 .副词 能 够 表示 文本 的 
主要 信息 ,助词 .连词 .代词 等 虚词 主要 用 于 修饰 语句 ， 
对 概括 文本 信息 没有 很 大 价值 。 目 前 ,很 多 学 者 就 词 
性 属性 对 关键 词 提取 效果 的 影响 进行 了 研究 。 张 建 娥 
等 根据 人 工 标注 结果 对 关键 词 的 词性 进行 了 统计 ,发 
现 名 词 动词 形容词. 副词 四 类 词性 的 关键 词 数 量 和 
达到 关键 词 总 数 的 95. 5% ,并 在 此 基础 上 提出 词 频 、 
词语 关联 性 ,词性 和 位 置 特 征 线性 加 权 的 多 特征 融合 
关键 词 提取 方法 "9 ; 袁 津 生 等 提出 综合 中 文 新 闻 网 页 
的 统计 特征 、 位 置 特征 和 词性 特征 等 在 内 的 多 特征 综 


黄 鲁 成 等 在 社会 化 问答 社区 话题 识别 研究 中 引入 用 户 
对 问题 的 关注 数 和 回答 数 来 衡量 词语 重要 性 ,并 统计 
观察 用 户 关注 数 和 回答 数 的 数字 规律 对 用 户 关注 情况 
进行 量化 ”。 廖 晓 等 认为 企业 虚拟 社区 中 词语 的 重要 
性 受到 词 频 ,用户 浏览 数 和 回复 数 的 影响 ,并 结合 媒体 
关注 度 计算 方法 对 用 户 浏览 数 和 回复 数 进行 计算 ,从 
词 频 和 用 户 关 注 度 两 个 方面 综合 分 析 词 语 重 要 性 。 

社会 化 问 管 社区 是 兼 具 问 答 和 社交 功能 的 平台 ， 
对 用 户 全 面 开 放 提 问 .回答 最 佳 答案 选择 等 过 程 。 在 
社会 化 问答 社区 中 ,用 户 通过 回答 功能 分 享 知识 ,通过 
关注 功能 实时 了 解 话题 变化 ,通过 评论 功能 表达 对 提 
问 内 容 的 看 法 。 因 此 ,用 户 对 文本 的 关注 情况 体现 在 
用 户 浏览 数 ,用户 关注 数 . 用 户 回 答 数 .用 户 评论 数 4 
个 方面 。 同 时 ,由 于 用 户 在 社会 化 问答 社区 发 表 言 论 
的 自由 性 ,产生 的 数据 呈现 出 文本 长 度 较 短 ,文本 表述 
口语 化 ,数据 集 稀 玻 的 特点 。 目 前 ,基于 统计 的 关键 词 
提取 研究 取得 了 一 定 成 果 , 但 由 于 考虑 到 的 属性 不 足 
或 不 适应 社会 化 问答 社区 文本 的 特点 , 现 有 关键 词 提 
取 方 法 不 能 有 效应 用 于 该 类 文本 集 的 关键 词 提取 。 


tp 


3 社会 化 问答 社区 多 属性 加 权 关 键 词 


提取 方法 
3.1 关键 词 提取 方法 和 流程 
针对 现 有 关键 词 提取 方法 应 用 于 社会 化 问答 社区 
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的 不 足 , 本 文 提出 结合 社会 化 问答 社区 特征 的 多 属性 
加 权 关 键 词 提取 方法 (Keywords Extraction Method 
based on Multi-attributes Weighted，MW -KEM ) ,基本 流 
程 见 图 1。 词语 出 现 频 次 的 大 小 能 在 一 定 程度 上 反映 
词语 的 重要 性 ;通过 给 不 同 词性 的 词语 赋予 不 同 的 权 
重 有 助 于 凸显 有 效 词 语 ,能 有 效 提高 关键 词 提取 效率 ; 
用 户 关 注 度 越 高 的 词语 越 能 反映 文本 的 内 容 , 而 社会 
化 问答 社区 中 ,用 户 的 关注 程度 体现 在 回答 数 、 关 注 
数 .浏览 数 ` 评 论 数 4 个 方面 。 因 此 ,本 方法 以 词 频 
(FR) ,词性 (POS) 、 回 答 数 (RE) 、 关 注 数 (AT) ,浏览 净 
(BR) .评论 数 (C0)6 个 属性 为 指标 ,通过 线性 加 权 毕 
合 度量 词语 重要 性 。 提 出 词语 4 在 文本 p; 中 的 词语 
权重 W; 计 算 公 式 : 

TW, = 0, x FP,; +90, x RE(p;,) +0, xAT(p,) +0, x 
BR ) 0 XCOUp) (2) 

人 -词语 /2 在 文本 集 P 中 的 权重 为 : 

尼 T= Sm, 9) 

〇 其 中 ,FP, 为 词 频 和 词性 的 综合 权重 ; RE (p,) 47 
(了 .BR(p,) 和 CO(p)) 为 用 户 关注 属性 权重 ,使 用 TP- 
PBRY Term Frequency -Proportional Document Frequen- 
话题 关注 度 计算 方法 量化 ;0,, ,m =1,2…,5 为 各 
属 全 的 权重 系数 , 且 > 9。 = 1 ,使 用 层次 分 析 法 ( Ana- 
lytieHierarchy Process ,AHP ) 9 -30 确定 。 

>< 

文本 集 抓 取 
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使 用 TF-PDF 量化 
户 关注 属性 权重 


ta 


引入 调节 函数 和 词性 
属性 改进 TF-IDF 


使 用 改进 TF-IDF 量化 
词 频 和 词性 属性 权重 


线性 加 权 计算 每 个 广 
本 中 词语 的 综合 权重 


1 


汇总 词语 在 整个 文本 
集 的 权重 并 排序 


图 1 多 属性 加 权 关 键 词 提取 方法 流程 


3.2 ”基于 改进 TFJDF 的 频率 与 词性 权重 量化 

由 于 社会 化 问答 社区 文本 长 度 较 短 ,TF 值 较 小 ， 
传统 TFJDF 的 计算 结果 受 IDF 的 影响 较 大 ,容易 出 现 
两 方面 的 不 足 :(D 文 本 集 P 中 含有 词语 1; 的 文本 个 数 
n 接近 文本 集 P 的 文本 总 数 NN 时 IDF 值 很 低 , 整 个 权 
重 值 过 小 ,导致 一 些 虽然 在 多 篇 文章 中 出 现 ,但 能 很 好 
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地 表达 文本 特征 的 词语 不 能 被 选 为 关键 词 ;Q@n 接近 0 
时 IDF 值 很 高 ,整个 权重 值 偏 大 ,导致 一 些 低频 词 被 误 
选 为 关键 词 ”。 为 了 解决 这 个 问题 ,本 文 基于 客 函 数 
y=x 对 nn 值 进行 调节 ,提高 TF-IDF 在 nn 值 较 大 时 的 
计算 结果 ,降低 TFJDF 在 n 值 较 小 时 的 计算 结果 。 令 
n'=a(n 一 N/2) ” +5, 其 中 4.2 为 常量 。 为 了 避免 取 值 
范围 的 变化 影响 有 效 性 , 令 函 数 端点 为 (0,0)、(WN， 
N) ,得 到 a 2 值 分 别 为 4/V JW2。 故 调节 函数 为 : 
1 =(2[N) (n-N/2)° +N/2 (4) 
图 2、 图 3 分别 以 NN 取 1 000 为 例 对 调节 函数 和 调 
节 后 的 IDF 函数 进行 展示 。 从 图 3 中 可 以 看 出 , 当 nn< 
N/2 时 ,IDF 值 比 传 统 IDF 方法 计算 的 值 小 ,n 取 值 较 
小 时 变化 比较 明显 ; 当 n>N/2 时 ,IDF 值 比 传 统 IDF 
方法 计算 的 值 大 ,n 取 值 较 大 时 变化 比较 明显 。 


| 
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1 一 (212 二 
一 n'=()?2*(n 一 人 3+ 生 E 
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图 2 引入 的 调节 函数 
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图 3 调节 后 的 IDF 对 比 


为 进一步 提高 关键 词 提 取 能 力 ,根据 词性 属性 给 


词语 赋予 相应 的 权重 。 通 常 ,名 词 .动词 .形容词 .副词 
四 种 词性 的 词语 占 关键 词 集合 的 绝 大 多 数 , 而 虚词 连 
词 .助词 等 词性 的 词语 主要 用 于 加 强 语句 ,不 能 起 到 总 
结 文本 内 容 的 作用 。 因 此 ,本 方法 对 名 词 ,动词 .形容 
词 .副词 四 种 词性 的 词语 赋予 较 高 的 权重 ,对 其 他 词性 
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的 词语 权重 赋值 为 0。 同 时 ,将 词性 属性 融合 到 TF - 


IDF 计算 过 程 中 ,得 到 改进 后 的 TF-JDF 如 下 : 
fp; =pos x tf; x idf: =pos x tf; Xx log N/n’ (5) 
其 中 ,n .tf 与 传统 TF-IDF 含义 相同 , 思 , 表 示 词 语 
t; 在 文本 p, 中 词 频 与 词性 的 综合 权重 。pos 表示 不 同 
词性 词语 的 权重 ,这 里 参照 同类 方法 的 常用 取 值 , 赋 动 
词 ,名词 为 1.5 ,形容 词 .副词 为 1。 为 了 便于 各 个 属性 
之 间 的 比较 , 取 文本 p; 中 施 , 的 最 大 值 和 最 小 值 , 对 词 
频 和 词性 的 综合 权重 做 标准 化 处 理 : 
fps -min(fps) 
Ty max (fpy) — min(fps) 
3.3 ”基于 TF 了 PDF 的 用 户 关注 属性 权重 量化 
社会 化 问答 社区 中 ,用 户 关 注 程度 主要 体现 在 用 
户 对 问题 的 回答 数 .关注 数 .浏览 数 .评论 数 上 。 此 处 
引 赤 话题 关注 度 计算 方法 TF-PDF ”对 这 4 个 属性 进 
行 量化 : 


(6) 


(Pp) a (pi) 
es a mp7) 
208% (7) 
2 其 中 ,a (p,) ,k=1,2,3,4 分 别 对 应 文本 pp 的 回答 
数 泣 注 数 、 浏 览 数 以 及 评论 数 ;wi(p,) ,t=1,2,3,4 分 
别 对 应 文本 户 的 回答 属性 权重 RE(p,) .关注 属性 权重 
AT(P,) ,浏览 属性 权重 BR(P ) 以 及 评论 属性 权重 CO 
(D> 

3s 入 基于 AHP 的 属性 权重 系数 赋值 

斧 采 用 层次 分 析 法 确定 各 属性 权重 的 系数 。 层 次 分 
本 法 是 美国 匹 效 堡 大 学 教授 T.L. Saaty 提出 的 确定 指 
标 鞠 重 的 常用 有 效 方法 ,一 般 由 4 个 步骤 构成 :建立 层 


exp( k=:1; 


7 


Oo.(p)) = 


次 结构 模型 .构造 判断 和 矩阵、 层次 单 排序 及 层次 总 排 
序 2-20 。 
3.4.1 建立 层次 结构 模型 ”构建 层次 分 析 法 结构 模 


型 见 图 4。 目 标 层 为 给 词语 赋予 合适 的 权重 ;准则 层 
由 词语 属性 和 用 户 关注 属性 两 个 大 类 构成 ;方案 层 为 
待 确定 权重 的 各 个 具体 属性 。 
3.4.2 构造 判断 矩阵 采用 一 致 矩阵 法 构建 判断 矩阵 ， 
矩阵 元 素 采 用 1 -9 标 度 。 邀 请 5 位 专家 对 各 层 指标 
的 重要 性 打分 ,综合 各 专家 意见 得 到 判断 矩阵 如 表 1、 
2 所 示 : 


表 1 A 判断 矩阵 


BI B2 W CR 
Bl 1 et 0<0.1 
B | 1 0.5 


目标 层 

准则 层 

方案 层 

图 4 层次 分 析 法 结构 模型 
表 2 B, 判断 矩阵 
RE AT BR CO Ww CR 

RE 1 173 ， 1 0.203 
AT 3 1 5 3 0.526 0.001 
BR 13 1/5 172 0.087 2<01 
CO 出 173 2 1 0.184 


3.4.3 层次 单 排序 及 一 致 性 检验 引入 随机 一 致 性 
指标 RI 的 1~9 阶 判断 矩阵 取 值 ” ” , 见 表 3。 根 据 
上 述 判断 矩阵 ,使 用 方 根 法 计算 各 因素 的 权重 ,结果 如 
表 1、 表 2 所 示 。 由 于 2 阶 判断 矩阵 总 是 完全 一 致 的 ， 
省 去 对 矩阵 A 的 一 致 性 检验 。 经 计算 ,和 矩阵 B, 的 最 大 
特征 值 和, =4.033 6 ,一致 性 指标 CT = (A -n)/(n 
-1) =0.011 2, 查 表 3 得 知 RI=0.96, 故 CR= CI/RI= 
0.001 2 <0.1。 一 般 地 ,CR 值 小 于 0.1 就 认为 该 矩阵 
具有 满意 一 致 性 ,因此 矩阵 B, 通过 检验 。 

表 3 nm 阶 判 断 矩 阵 的 RI 值 


矩阵 阶 数 mn 1~2 3 4 5 6 7 8 9 
RI 0 


0.58 0.96 1.12 1.24 1.32 1.41 1.45 


3.4.4 ”层次 总 排序 及 综合 一 致 性 检验 ”根据 同一 层 
单 排序 的 结果 ,能 够 计算 各 层 要 素 相对 于 目标 层 的 
总 权重 。 因 此 ,从 上 到 下 将 各 层 权 重 汇总 并 进行 一 致 
化 处 理 得 到 各 个 指标 的 权重 系数 如 表 4 所 示 : 

表 4 层次 总 排序 


y 


Kk 沪 


Bi B, 总 排序 权 值 
0.5 0.5 
FP 1 0.5 
RE 0. 203 0. 102 
AT 0.526 0. 263 
BR 0.087 0. 044 
CO 0. 184 0. 092 
CI 0 0.011 2 
RI 0 0.96 


层次 总 排序 的 一 致 性 比率 CR =0.001 2 <0.1 ,说 


135 


团 定 情报 三 作 


第 62 卷 第 5 期 2018 年 3 月 


斑 上 im”AVi 人 人 { 息 甘 日 王 
ChinaXiv 合 作 期 刊 


明 其 具有 满意 一 致 性 。 因 此 , 见 公式 2 ,词语 在 单个 文 
本 中 的 权重 计算 中 各 个 指标 的 系数 0、0,、0;、04、0; 的 
值 分 别 为 0.5 .0. 102 .0.263 ,0.044 .0.092。 


4 ”实验 及 分 析 
4.1 ”实验 方法 

知 乎 是 国内 社会 化 问答 社区 的 代表 " 。 在 社会 化 
问答 社区 中 ,用 户 的 回答 是 围绕 具体 的 提问 展开 的 , 提 
问 内 容 能 明确 概括 该 问题 下 的 回答 内 容 。 因 此 ,本 文 
根据 知 乎 “汽车 设计 ”话题 下 帖子 的 综合 排序 取 前 
1 000 条 ,用 八 爪 鱼 采 集 器 提取 每 条 帖子 的 提问 内 容 、 
问题 标签 .问题 补充 等 文本 数据 以 及 回答 数量 ,被 关注 
数量 ,评论 数量 ,浏览 数量 等 数字 数据 ,并 将 每 条 帖子 
的 数据 作为 一 个 文本 存放 ,去 除 重 后 得 到 文本 848 条 ， 
共 昼 306 字 。 使 用 HanLP 工具 包 进 行 分 词 . 去 停 用 词 
和 词性 标注 等 处 理 。 同 时 ,为 进一步 提高 文本 处 理 效 
“汽车 之 家 ”“ 太 平 洋 汽 车 网 ”等 平台 收集 “概念 
台 轮 载 "等 41 645 个 汽车 相关 词汇 对 HanLP 词典 进 
扩充 。 
根据 文献 [8] 社 会 化 问答 社区 话题 识别 与 分 析 中 
确 知 方法 的 描述 ,借鉴 黄 鲁 成 等 学 者 提出 的 关键 词 提 
法 对 本 文 的 实验 数据 进行 关键 词 提取 ,并 把 该 方 
法 表示 为 COM。 将 MW -KEM 的 关键 词 提取 性 能 与 
C0 珊 .传统 TF-IDF 对 比 。 通 过 控制 文本 数量 ,提取 的 
办 双 间 数量 来 设置 两 类 实验 ,考察 3 种 方法 在 不 同 条 
件 忆 的 关键 词 提取 效果 。 第 一 类 实验 随机 选取 N 条 文 
本 作为 一 个 文本 集 , 分 别 使 用 3 种 方法 提取 词语 权重 
毛 语 的 前 N3 个 词 作 为 该 文本 集 的 关键 词 ,改变 N 值 
进行 多 次 实验 ,考察 3 种 方法 在 文本 量变 化 时 的 提取 
能 力 ;第 二 类 实验 以 一 个 文本 集 为 处 理 对 象 , 分 别 使 用 
3 种 方法 提取 规定 数量 的 词 作为 关键 词 ,改变 提取 的 
关键 词 数量 进行 多 次 实验 ,考察 3 种 方法 在 关键 词 数 
量变 化 时 的 关键 词 提取 能 
4.2 结果 分 析 

由 于 文本 关键 词 提取 方法 的 性 能 没有 客观 的 评价 
指标 ,结合 知 乎 中 的 问题 标签 进行 人 工 标注 ,得 到 关键 
词 参照 集合 。 把 机 器 方法 提取 的 关键 词 和 人 工 标注 的 
关键 词 进行 对 比 ,使 用 准确 率 ( Precision) ,召回 率 ( Re- 
call) 和 下 值 (F-measure) 对 实验 结果 进行 评价 : 


晤 | 


_ANB 

P= (8) 
_ANB 

Re (9) 
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2PR 
f=piR 


其 中 ,A 指 机 器 方法 提取 的 关键 词 ,B 指 人 工 标注 
的 关键 词 。 
为 对 比 3 种 方法 应 用 于 不 同 数量 文本 的 效果 ,给 
N 取 不 同 值 进行 实验 ,得 到 实验 结果 如 表 5 所 示 : 
表 5 不 同文 本 数量 下 3 种 方法 性 能 对 比 


(10) 


N 方法 P 值 (%) R 值 (%) F 值 (%) 

100 MW-KEM 72.7 49.0 58.5 
COM 60.6 40.8 48.8 

TF -DF 63.6 42.9 51,2 

200 MW-KEM 64.2 49.4 55.8 
COM 39.7 46.0 31.9 

TFIDF 38.2 44.8 50.6 

300 MW-KEM 63.0 53.4 57.8 
COM 33.08 44.9 48.6 

TF -DF 54.0 45.8 49.5 

400 MW-KEM 63.9 59.4 61.6 
COM 53.4 49.7 51.4 

TF-DF 31,1 47.6 49.3 

500 MW-KEM 63.9 60.9 62.4 
COM 31.2 48.9 50.0 

TF -DF 50.0 47.7 48.8 


结果 表明 ,MW -KEM 的 准确 率 、 召 回 率 下 值 均 大 
于 两 种 对 比方 法 ,说 明 其 提取 关键 词 的 能 力 较 强 。 绘 
制 3 种 方法 的 了 上 值 随 文本 数量 变化 的 趋势 ,如 图 5 所 
示 : 


划 65% 
请 


60% 1 


55%1 


50% 1 


45% 


T T T T T T T T T 
100 10 200 250 300 350 400 450 500 
文本 数量 


5 3 种 方法 F 值 随 文本 数量 变化 


从 图 5 中 可 以 看 出 :在 处 理 社 会 化 问答 社区 文本 
时 ,传统 TF-IDF 随 着 文本 量 的 增加 提取 关键 词 的 能 
变 弱 ;COM 与 传统 TF -IDF 关键 词 提取 能 力 相当 ;而 
MW -KEM 不 仅 了 上 值 明 显 大 于 另 两 种 方法 ,而 且 随 文本 


余 本 功 ， 李 婷 ， 杨 颖 .基于 多 属性 加 权 的 社会 化 问答 社区 关键 词 提取 方法 [J] .图书 情报 工作 ,2018 ,62(5) :132 - 139. 
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量 的 增加 呈现 增长 趋势 ,反映 了 MW -KEM 的 良好 性 


革 
已 
已 


za 中 


[e] 


为 对 比 3 种 方法 在 同一 文本 集中 提取 不 同 数 量 关 
键 词 的 能 力 ,分别 随 机 选取 200 .500 条 文本 作为 文本 


低 ,提取 关键 词 的 综合 能 力 较 差 。 随 着 关键 词 提 取 数 
量 的 增加 ,准确 率 降低 ,召回 率 上 升 ,F 值 呈 现 增 涨 趋 
势 。 当 关键 词 提取 数量 大 于 20 时 ,MW -KEM 的 下 值 始 
终 高 于 传统 TF-IDF 和 COM 方法 ,说 明 MW -KEM 方法 


集 ,每 个 文本 集 人 工 标注 90 个 词语 作为 关键 词 参照 集 
合 。 分 别 采用 3 种 方法 提取 10、.20 ,…,90 个 关键 词 进 
行 实验 分 析 ,部 分 结果 见 表 6。 绘 制 文本 量 200.500 下 
3 种 方法 的 了 值 随 提 取 关 键 词 数量 变化 的 趋势 , 见 图 
6 .图 7。 实 验 表明 ,在 关键 词 提 取 数 量 较 小 的 时 候 ,3 
种 方法 的 关键 词 提取 能 力 相 当 : 准 确 率 高 ,但 召回 率 较 


有 更 强 的 关键 词 提取 能 力 。 此 外 ,文本 量 200 条 件 下 ， 
MW -KEM 在 关键 词 提取 数量 为 90 时 了 值 为 54.29 ， 
而 在 文本 量 500 条 件 下 ,关键 词 提取 数量 为 90 时 了 值 
为 71.2% ,说 明了 数据 量 的 大 小 对 提取 效果 有 一 定 影 
啊 ,也 进一步 验证 了 不 同文 本 集 下 ,MW -KEM 随 文本 
量 的 增加 关键 词 提取 能 力 有 所 增强 的 趋势 。 


表 6 不 同 关键 词 个 数 下 3 种 方法 性 能 对 比 
文本 量 200 文本 量 500 
关键 词 数 方法 
P 值 (%) R 值 (%) F 值 (%) P 值 (% ) R 值 (%) F 值 (%) 
10 MW -KEM 90.0 10.3 18.6 70.0 8.0 14.4 
J 
™y COM 90.0 10.3 18.6 80.0 9.2 16.5 
TF IDF 100.0 11.5 20.6 70.0 8.0 14.4 
MW -KEM 76.7 26.4 39.3 80.0 27.6 41.0 
COM 70.0 24.1 35.9 76.7 26.4 39.3 
TF-IDF 66.7 23.0 34.2 73.3 25.3 37.6 
MW-KEM 68.0 39.1 49.6 78.0 44.8 56.9 
COM 62.0 35.6 45.3 66.0 37.9 48.2 
TF-IDF 60.0 34.5 43.8 68.0 39.1 49.6 
MW-KEM 62.9 50.6 56.1 74.3 59.8 66.2 
COM 60.0 48.3 53.5 68.6 55.2 61.1 
TF -IDF 57.1 46.0 51.0 58.6 ds 52.2 
MW -KEM 53.3 55.2 54.2 70.0 72.4 71.2 
COM 50.0 51.7 50.8 57.8 59.8 58.8 
TF -IDF 45.6 47.1 46.3 47.8 49.4 48.6 
“ 通 -60% 80% 
| 下 
OO 
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6 文本 量 200 时 下 值 随 关键 词 数 变化 
通过 不 同文 本 量 和 不 同 关 键 词 提取 数量 下 的 实验 
分 析 ,能 够 验证 MW -KEM 方法 在 传统 TF -IDF 中 引入 
调节 函数 .词性 属性 并 融合 用 户 关注 属性 ,能 有 效 提高 


0%- 一 T T T T T T T T 
10 20 30 40 50 60 70 80 90 
关键 词 个 数 


图 7 文本 量 500 时 F 值 随 关键 词 数 变化 
社会 化 问答 社区 文本 关键 词 提取 的 效率 。 同 时 ,具备 
基于 统计 的 关键 词 提取 方法 的 优势 ;不 需要 大 量 的 语 
料 库 和 参数 训练, 简单 便捷 ,又 不 依赖 于 语义 背景 知识 
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和 


库 ,能 有 效 保 证 关键 词 提取 的 客观 性 。 


本 文 在 基于 统计 的 关键 词 提取 方法 基础 上 ,综合 
考虑 社会 化 问答 社区 中 影响 词语 权重 的 属性 ,提出 适 
用 于 处 理 社会 化 问答 社区 文本 的 多 属性 加 权 关 键 词 提 
取 方法 。 该 方法 通过 线性 加 权 融 合 了 词 频 词性 和 用 
户 浏览 数 . 评 论 数 等 用 户 关注 属性 ,并 引入 基于 短 函 数 
的 调节 函数 的 对 传统 TF-IDF 方法 进行 改进 来 量化 词 
语 的 词 频 和 词性 属性 ,引入 TF-PDF 方法 量化 用 户 关注 
属性 。 经 验证 ,该 方法 能 有 效 地 提取 社会 化 问答 社区 
文本 的 关键 词 。 

本 文 的 研究 方法 也 存在 些 不 足 : 实 验 所 用 数据 均 
为 知 乎 “汽车 设计 "板块 ,数据 来 源 单一 , 且 较 小 数据 
集 乱 关键 词 提取 性 能 仍 可 继续 提升 。 后 续 研 究 将 在 此 
基础 上 进 步 提高 关键 词 提取 效率 ,同时 ,注重 方法 的 
沉 陆 应 用 ,将 社会 化 问答 社区 中 提取 的 用 户 生成 内 容 
关键 词 与 用 户 创新 相 结合 ,对 用 户 创新 的 热点 知识 . 核 
心 殉 识 和 知识 领域 做 分 析 识 别 。 
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Keywords Extraction Method for the Social Q&A Community 
Based on Multi-attributes Weighted 
Yu Bengong’”” LiTing Yang Ying 
! School of Management, Hefei University of Technology, Hefei 230009 
“Key Laboratory of Process Optimization & Intelligent Decision -making, Ministry of Education, 
Hefei University of Technology, Hefei 230009 
__Abstract: [ Purpose/significance | Existing methods of extracting keywords can’ t be applied to the social Q&A 
collimunity effectively, because they are not suitable for the characteristics of the social Q&A community which embodies 
short texts, colloquial contents and sparse data. They rarely think about the impact of users’” attention on words. In view 
of the aforementioned problem, this paper presents a novel keywords extraction method based on multi-attributes weighted 
{Ehe social Q&A community. [ Method/process | This method improved the traditional TF -IDF algorithm by introducing 
the tuning function and the part of speech. Besides, it calculated the weight of words based on a linear weighting formula, 
wa fused four attributes of user focus by dealing with numbers of users” answer, attention, browse, and comments. [ Re- 
siiltZconclusion ] Experiments show that this method can extract keywords from the social Q&A community more effectively. 


> NKeywords: social Q&A community keyword extraction TF-IDF multi-attributes weighted 
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